Long series
plot(long, type='l')

spec.pgram(long, detrend = TRUE, fast = FALSE, log='no', taper=0)

Предполагем, что достаточно сгруппировать 8 компонент, т.к. возможно, ранг равен 8 (линейный тренд + 3 косинуса).
Как выбирать L
Так как точной разделимости в реальных рядах не бывает, нас интересует асимтотическая разделимость.
В большинстве случаев скорость асимптотической разделимиости пропорциональна \(1/\min(L, K)\), \(K = N - L + 1\), поэтому выбираем \(L\) близкое к \(N/2\).
Если мы хотим отделять косинус с некоторым периодом, то для улучшения разделимости рекомендуется брать окно кратное периоду (следует из условий точной слабой разделимости).
Слабая и сильная разделимость
- Слабая разделимость – ортогональность траекторных подпространств
- Сильная азделимость – слабая разделимость + в разных компонентах (SVD) разные собственные числа
Decomposition
ssa.long <- ssa(long, kind='1d-ssa')
Собственные числа:
\(\lambda_i = \|\mathbf{X}_i\|^2_{\mathcal{F}}\), \(\lambda_i/ \|\mathbf{X}\|^2_{\mathcal{F}}\) – вклад компоненты
plot(ssa.long)

Как идентифицировать тренд?
Хотим выделить все элементарные компоненты, которые имеют медленно меняющиеся собственные вектора.
Собственные ветора образуют базис траекторного подпространства, следовательно, они имеют вид соответствующих компонент ряда.
Собственные вектора:
plot(ssa.long, type='vectors', idx = 1:15)

Первые два – линейный тренд, дальше идут периодические компоненты.
Как идентифицировать периодичность
Посмотрим на скаттерплоты пар собственных векторов.
- Знаем, что экспоненциально модулированный косинус соответствует двум собственным тройкам с примерно одинаковыми собственными числами (\(Lw\) – целые). Отсюда следует, что эти SVD компоненты скорее всего идут друг за другом
- Эти две периодические компоненты (собственные вектора), отличаются на \(\pi/2\) по фазе (при целых \(Lw\)).
Таким образом, видимые Т-угольники соответствуют периодическим компонентам с периодом Т.
plot(ssa.long, type='paired', idx= c(1:20))

Заметны компоненты с периодами 20, 10 и 6. Есть компонента, похожая на период 2.4, компонента похожая на период ~6.
Элементарные восстановленные компоненты
plot(ssa.long, type='series', groups = list(1:2, 3:4, 5:6, 7:8, 9:10, 11:12))

Оценка параметров (ESPRIT)
\(x_n = \sum\limits_{j = 1}^r C_j \mu_j^n + \epsilon_n\) – ряд, \(\mu_j = \rho_je^{2\pi i \omega_j}\) – корни х.п.
Алгоритм ESPRIT-LS:
- Применив SSA и получив SVD разложение, составляем r собственных векторов в матрицу \(\mathbb{U}\)
- \(\widehat{\mathbb{D}} = \underline{\mathbb{U}}^-\bar{\mathbb{U}}\)
- Собственные чилса – оценки сигнальных корней
parestimate(ssa.long, groups = list(1:12), method = "esprit-ls")
period rate | Mod Arg | Re Im
10.008 0.000360 | 1.00036 0.63 | 0.80960 0.58760
-10.008 0.000360 | 1.00036 -0.63 | 0.80960 -0.58760
20.006 0.000299 | 1.00030 0.31 | 0.95137 0.30903
-20.006 0.000299 | 1.00030 -0.31 | 0.95137 -0.30903
Inf 0.000104 | 1.00010 0.00 | 1.00010 0.00000
Inf -0.000109 | 0.99989 0.00 | 0.99989 0.00000
5.999 -0.000352 | 0.99965 1.05 | 0.49963 0.86583
-5.999 -0.000352 | 0.99965 -1.05 | 0.49963 -0.86583
2.217 -0.000564 | 0.99944 2.83 | -0.95263 0.30227
-2.217 -0.000564 | 0.99944 -2.83 | -0.95263 -0.30227
6.665 -0.001292 | 0.99871 0.94 | 0.58685 0.80810
-6.665 -0.001292 | 0.99871 -0.94 | 0.58685 -0.80810
Компоненты смешались. Как понять, это слабая или сильная разделимость?
Нет слабой разделимости – отсутствие ортогональности траекторных подпространств.
- Посмотреть на матрицу взвешенных корреляций \(\rho_{ij}(X_N^{(i)},X_N^{(j)}) = \frac{(X^{(i)}_N, X^{(j)}_N)_w}{\|X^{(i)}_N\|_w\|X^{(j)}_N\|_w}\).
По такой матрице поймем, хорошо ли мы разделили компоненты. Поймем, какие компоненты делить не стоит.
- Можно посмотреть на частотные коэффициенты корреляции (достаточное условие слабой отделимости)
W-корреляционная матрица
plot(wcor(ssa.long, groups = as.list(1:15)))

Матрица практически диагональная – тренды и сезонные компоненты практически w-ортогональны
Нет сильной разделимости – одинаковые собственные числа оказались в разных компонентах
- Можно посмотреть на вклады компонент, ступеньки будут соответствовать близким собственным числам
Reconstruction
В предположении, что ранг ряда 8, получим
long.reconstructed <- reconstruct(ssa.long, list(
trend = c(1, 2),
periodic = 3:8))
res.long <- residuals(long.reconstructed)
par(mfrow=c(4,1))
plot(long, type = 'l')
plot(long.reconstructed$trend, type='l', ylab = "trend")
plot(long.reconstructed$periodic, type='l', ylab = "periodic")
plot(res.long, type='l')

Автоковариационная функция
acf(res.long, lag.max = 50)

Шум похож на белый.
Корни ХП
Min-norm ЛРФ
- \(P_i\) – столбцы траекторной матрицы
- \(\underline{P}_{i}\) – вектор \(P_i\) без последней координаты
- \(\pi_i\) – последняя координата \(P_i\)
Коэффициенты min-norm ЛРФ:
\(\mathcal{R} = \frac{1}{1-\nu^2}\sum\limits_{i=1}^{d}{\pi_i \underline{P}_{i}}\), где \(\nu^2 = \pi_1^2 + … + \pi_d^2\)
\(x_{i + d} = \sum\limits_{k = 1}^da_kx_{i + d - k}\), \(a_d \neq 0\) – минимальная ЛРФ
\(P(\mu) = \mu^d - \sum\limits_{k = 1}^da_k\mu^{d - k}\) – характеристический полином ЛРФ
\(\{\mu_j\}_{j = 1}^p\) – корни х.п. кратности \(k_j\), \(\sum k_j = d\), тогда
\(x_n = \sum\limits_{m = 1}^p(\sum\limits_{j = 0}^{km - 1} C_{m_j} n^j)\mu_m^n\)
min-norm ЛРФ и ее корни (предполагаем, что ранг ряда 8)
lr <- lrr(ssa.long, groups = list(1:8))
plot(lr)

r <- roots(lr)
Хотим построить формулу для сигнала ряда с шумом.
Взяв большое окно и построив min-norm ЛРФ, найдем много корней х.п.
Как выбрать из них те r корней, что определяют структуру сигнала?
Найдем сигнальные корни, воспользовавшись утверждением, что у min-norm ЛРФ все лишние корни по модулю меньше единицы.
mods <- Mod(r)
print(r[mods >= 1])
[1] 0.8098255+0.5875445i 0.8098255-0.5875445i 0.9513031+0.3091901i 0.9513031-0.3091901i 1.0000664+0.0000000i
Перевернем ряд
lr.back <- lrr(ssa.long, groups = list(1:8), reverse = TRUE)
r.back <- roots(lr.back)
mods.back <- Mod(r.back)
print(r.back[mods.back >= 1])
[1] 1.000001+0i
Модули главных корней
main.roots <- c(r[Mod(r) >= 1], 1/r.back[Mod(r.back) >= 1])
print(Mod(main.roots))
[1] 1.0005128 1.0005128 1.0002881 1.0002881 1.0000664 0.9999993
Соответствующие периоды
print(2*pi/Arg(main.roots))
[1] 10.01067 -10.01067 19.99437 -19.99437 Inf Inf
plot(main.roots, xlim = c(-1,1), ylim = c(-1,1), asp = 1, xlab = "Re", ylab = "Im")
draw.circle(0,0,1,border = 'red')

Нашлось только 6 сигнальных корней, а должно быть 8.
Попробуем другой способ:
Составим систему и найдем коэффициенты по МНК
complex.LS <- function(series, series.roots){
X <- mapply(FUN = function(root){root^(1:length(series))}, series.roots)
Y <- cbind(series)
list(coef = solve(Conj(t(X))%*%X) %*% Conj(t(X)) %*% Y,
X = X)
}
coeffs.estimates <- complex.LS(long.reconstructed$trend + long.reconstructed$periodic, r)
Воспользуемся тем, что перед сигнальными корнями должны стоять максимальные коэффициенты
idx.roots <-order(Mod(coeffs.estimates$coef), decreasing = TRUE)[1:8]
main.roots<-r[idx.roots]
res.coeffs <- coeffs.estimates$coef[idx.roots]
Модули главных корней
print(Mod(main.roots))
[1] 0.9999324 1.0000664 0.6414650 1.0002881 1.0002881 0.9865705 0.9865705 0.9874613
Соответствующие периоды
print(2*pi/Arg(main.roots))
[1] Inf Inf Inf -19.99437 19.99437 13.87755 -13.87755 13.58822
plot(main.roots, xlim = c(-1,1), ylim = c(-1,1), asp = 1, xlab = "Re", ylab = "Im")
draw.circle(0,0,1,border = 'red')

relation <- function(n){
rbind(res.coeffs) %*% t(mapply(FUN = function(root){root^n}, main.roots))
}
plot(long.reconstructed$trend + long.reconstructed$periodic, type = 'l', ylab = "series")
lines(x = 1:1000, y = Re(relation(1:1000)), col = 'red')

Short series
plot(short, type='l')

spec.pgram(short, detrend = TRUE, fast = FALSE, log='no', taper=0, xaxt = 'n')
l <- seq(0, 0.5, 0.05)
axis(1, at = l, labels = l)

Ожидаем, что ранг ряда как минимум 4 (тренд + синус).
Decomposition
short.ssa <- ssa(short, kind='1d-ssa')
Собственные числа
plot(short.ssa)

Собственные вектора:
plot(short.ssa, type='vectors', idx = 1:20)

plot(short.ssa, type='paired', idx= c(1:20))

parestimate(short.ssa, groups = list(3:4, 5:6, 7:8, 11:12, 13:14))
$F1
period rate | Mod Arg | Re Im
17.587 0.000000 | 1.00000 0.36 | 0.93686 0.34971
$F2
period rate | Mod Arg | Re Im
5.151 0.000000 | 1.00000 1.22 | 0.34386 0.93902
$F3
period rate | Mod Arg | Re Im
6.265 0.000000 | 1.00000 1.00 | 0.53780 0.84307
$F4
period rate | Mod Arg | Re Im
3.133 0.000000 | 1.00000 2.01 | -0.42103 0.90705
$F5
period rate | Mod Arg | Re Im
2.363 -0.000000 | 1.00000 2.66 | -0.88605 0.46360
plot(wcor(short.ssa, groups = as.list(1:20)))

short.reconstructed <- reconstruct(short.ssa, list(
trend = c(1, 2),
periodic = c(3:8,11:14)))
res.short <- residuals(short.reconstructed)
par(mfrow=c(4,1))
plot(short, type = 'l')
plot(short.reconstructed$trend, type='l', ylab = "trend")
plot(short.reconstructed$periodic, type='l', ylab = "periodic")
plot(res.short, type='l')

acf(res.short, lag.max = 50)

Projection SSA
Двойное центрирование
\(\mathcal{A}(\mathbf{X}) = [\mathcal{E}_1(\mathbf{X}) : \ldots : \mathcal{E}_1(\mathbf{X})]\), где \(\mathcal{E}_1(\mathbf{X})\) – вектор из средних по строкам
\(\mathcal{B}(\mathbf{X}) = [\mathcal{E}_{12}(\mathbf{X}) : \ldots : \mathcal{E}_{12}(\mathbf{X})]\), где \(\mathcal{E}_{12}(\mathbf{X})\) – вектор, в котором j-ая компонента равна среднему компонент \(X_j^{(c)} = X_i - \mathcal{E}_1(\mathbf{X})\).
При двойном центрировании применяем SVD к матрице \(\mathbf{A} = \mathcal{A}(\mathbf{X}) + \mathcal{B}(\mathbf{X})\)
Получим разложение \(\mathbf{X} = \mathbf{A} + \sum\limits_{i = 1}^d\sqrt{\lambda_i}U_iV_i^\mathrm{T}\), где \((\lambda_i, U_i, V_i)\) соответствуют \(S^* = (\mathbf{X} - \mathbf{A})(\mathbf{X} - \mathbf{A})^\mathrm{T}\).
Так как исходный тренд линейный, двойное центрирование поможет отделить линейную часть от колебаний (линейная часть попадет в \(\mathbf{A}\)).
short.projection.ssa <- ssa(x = short, column.projector = 'centering', row.projector = 'centering')
plot(short.projection.ssa)

plot(short.projection.ssa, type='vectors', idx = 1:20)

По виду собственных векторов видно, что тренд отделился лучше.
plot(short.projection.ssa, type='paired', idx= c(1:20))

parestimate(short.projection.ssa, groups = list(3:4, 5:6, 7:8, 11:12, 13:14), method ="esprit-ls")
$F1
period rate | Mod Arg | Re Im
19.760 -0.003204 | 0.99680 0.32 | 0.94683 0.31165
-19.760 -0.003204 | 0.99680 -0.32 | 0.94683 -0.31165
$F2
period rate | Mod Arg | Re Im
5.332 -0.021225 | 0.97900 1.18 | 0.37444 0.90456
-5.332 -0.021225 | 0.97900 -1.18 | 0.37444 -0.90456
$F3
period rate | Mod Arg | Re Im
6.238 -0.037821 | 0.96289 1.01 | 0.51434 0.81400
-6.238 -0.037821 | 0.96289 -1.01 | 0.51434 -0.81400
$F4
period rate | Mod Arg | Re Im
3.194 -0.016631 | 0.98351 1.97 | -0.37971 0.90725
-3.194 -0.016631 | 0.98351 -1.97 | -0.37971 -0.90725
$F5
period rate | Mod Arg | Re Im
2.359 -0.067364 | 0.93485 2.66 | -0.83013 0.42993
-2.359 -0.067364 | 0.93485 -2.66 | -0.83013 -0.42993
short.reconstructed <- reconstruct(short.projection.ssa, list(
trend = c(1, 2),
periodic = c(3:8,11:14)))
res.projection <- residuals(short.reconstructed)
par(mfrow=c(4,1))
plot(short, type = 'l')
plot(short.reconstructed$trend, type='l', ylab = "trend")
plot(short.reconstructed$periodic, type='l', ylab = "periodic")
plot(res.projection, type='l')

acf(res.projection, lag.max = 50)

Стало немного лучше, но все-таки что-то осталось.
Последовательный анализ реального ряда
uk <- read.csv("UK.csv", sep = ',', stringsAsFactors = FALSE)
uk <- ts(uk$EXPEND, start = c(1980, 1), frequency = 12)
df.uk <- data.frame(seq.Date(from = as.Date("1980-01-01"), to = as.Date("2016-12-01"), by = "month"), uk)
colnames(df.uk) <- c("DATE", "EXP")
head(uk, 24)
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1980 117 116 166 180 202 290 298 441 388 260 175 105
1981 137 142 176 231 240 316 363 537 487 324 185 133
plot(uk)

Периодограмма ряда
spec.pgram(uk, detrend = TRUE, fast = FALSE, log='no', xaxt = 'n')
axis(1, at = c(0,1,2,3,4,5,6), labels = c('0', '1/12', '2/12', '3/12', '4/12', '5/12', '6/12'))

Сглаживание
- Тренд сложной формы, возможно, не описывается рядом конечной размерности
- Если выберем большое окно, компоненты тренда смешаются с периодическими
- Возьмем маленькое окно: хорошо выделим тренд, но смешаются остальные компоненты
- Решение: сначала выделим тренд с маленьким окном, потом применим SSA с большим окном к остатку.
Выбираем небольшую длину окна кратную периоду сезонной компоненты, L = 24.
uk.ssa <- ssa(uk, L = 24)
Вклады
plot(uk.ssa)

Видно, что собственные числа периодических компонент близкие. Скорее всего эти компоненты смешаются (проблема с сильной разделимостью).
Собственные вектора
plot(uk.ssa, type="vectors", idx=1:12)

plot(uk.ssa, type="paired", idx=1:11)

Восстановленные по элементарным компонентам
plot(uk.ssa, type ='series', groups = as.list(1:12))

Первая элементарная компонента соответствует тренду, дальше идут периодики.
Выделение тренда
uk.trend <- reconstruct(uk.ssa, groups = list(1))
plot(uk)
lines(uk.trend$F1, col = 'red')

uk.detrended <- residuals(uk.trend)
Периодограмма остатка
spec.pgram(uk.detrended, detrend = FALSE, fast = FALSE, log='no', xaxt = 'n')
axis(1, at = c(0,1,2,3,4,5,6), labels = c('0', '1/12', '2/12', '3/12', '4/12', '5/12', '6/12'))

Ожидаем, что дальше будет достаточно выделить 9 компонент (синус с периодом 2 имеет ранг 1).
Сезонность
Возьмем максимальное \(L \leq N/2\) кратное 12, т.е. 216 (длина ряда 444).
uk.detrended.ssa <- ssa(uk.detrended, L=216)
plot(uk.detrended.ssa)

Видно ступеньки, которые, возможно, соответствуют синусоидам.
plot(uk.detrended.ssa, type = "paired", idx = 1:30, plot.contrib = FALSE)

Заметны компоненты, соответствующие периодам 12, 6, 4 и 2.4.
Компонента, соответствующая периоду 2.
plot(uk.detrended.ssa, type = "vectors", idx = 9, plot.contrib = FALSE)

Проверим
parestimate(uk.detrended.ssa, groups = list(1:9), method = "esprit-ls")
period rate | Mod Arg | Re Im
3.995 0.005162 | 1.00518 1.57 | -0.00196 1.00517
-3.995 0.005162 | 1.00518 -1.57 | -0.00196 -1.00517
11.991 0.004041 | 1.00405 0.52 | 0.86934 0.50236
-11.991 0.004041 | 1.00405 -0.52 | 0.86934 -0.50236
2.000 0.003889 | 1.00390 3.14 | -1.00390 0.00000
5.995 0.003856 | 1.00386 1.05 | 0.50114 0.86983
-5.995 0.003856 | 1.00386 -1.05 | 0.50114 -0.86983
2.401 0.003558 | 1.00356 2.62 | -0.86881 0.50231
-2.401 0.003558 | 1.00356 -2.62 | -0.86881 -0.50231
W-корреляционная матрица
plot(wcor(uk.detrended.ssa, groups = as.list(1:20)))

uk.seasonality <- reconstruct(uk.detrended.ssa, groups = list(1:9))
res1 <- residuals(uk.seasonality)
par(mfrow=c(4,1))
plot(uk, type = 'l', ylab='Original')
plot(uk.trend$F1, type='l', ylab='Trend')
plot(uk.seasonality$F1, type='l', ylab = 'Seasonal Component')
plot(res1, type='l', ylab='Residuals')

В остатке остался тренд.
acf(res1)

spec.pgram(res1, detrend = FALSE, fast = FALSE, log='no', xaxt = 'n')
axis(1, at = c(0,1,2,3,4,5,6), labels = c('0', '1/12', '2/12', '3/12', '4/12', '5/12', '6/12'))

Оценка дисперсии шума
sigma.n.sqr <- ssa(res1^2, L = 30)
sigma.n <- sqrt(reconstruct(sigma.n.sqr, groups = list(1))$F1)
plot(res1, type='l')
lines(sigma.n, type = 'l', col='blue')
lines(-sigma.n, type='l', col='blue')

2D-SSA для разложения изображения
Рассмотрим фотографию спутника Сатурна, Дионы (Источник).
Прочитали картинку
dione <- readJPEG("Dione.jpg")
image(dione, col = grey(seq(0, 1, length = 256)))

Добавим шум
set.seed(100)
noise.matrix <- apply(dione, 2, function(x){rnorm(length(x), sd = 0.3)})
dione.noised <- dione + noise.matrix
image(dione.noised, col = grey(seq(0, 1, length = 256)))

2d-ssa
dione.ssa <- ssa(dione.noised, kind = "2d-ssa", L = c(25,25))
Собственные вектора
plot(dione.ssa, type = "vectors", idx = 1:30, cuts = 255, layout = c(10, 2), plot.contrib = FALSE)


w-корреляционная матрица
plot(wcor(dione.ssa, groups = 1:30),scales = list(at = seq(10, 30, 5)))

Сгруппируем компоненты с частотами похожего вида
dione.reconstructed <- reconstruct(dione.ssa, groups = list(I1 = c(1:13), I2 = c(14:15), I3 = c(16:17)))
Накопленные суммы компонент
plot(dione.reconstructed, cuts = 255, layout = c(5, 1), par.strip.text = list(cex = 0.75), type = "cumsum", at = "free")

Shaped SSA
Уберем черный фон
dione.without.black <- apply(dione, 2, FUN = function(col){
sapply(col, FUN = function(element){
if(element <= 0.1){
return(NA)
} else{
return(element)
}
})
})
image(dione.without.black, col = grey(seq(0, 1, length = 256)))

Добавим шум
dione.without.black.noised <- dione.without.black + noise.matrix
image(dione.without.black.noised, col = grey(seq(0, 1, length = 256)))

Попробуем изменить форму окна на круг.
dione.ssa.shaped <- ssa(dione.without.black.noised, kind = "2d-ssa", wmask = circle(20))
Some field elements were not covered by shaped window. 1253 elements will be ommited
plot(dione.ssa.shaped, type = "vectors", idx = 1:30, cuts = 255, layout = c(10, 2), plot.contrib = FALSE)


w-корреляционная матрица
plot(wcor(dione.ssa.shaped, groups = 1:30),scales = list(at = seq(10, 30, 5)))

По матрице можно сделать вывод о том, что приблизительно 10 первых компонент относятся к сигналу, а остальное это шум.
Сгруппируем компоненты с частотами похожего вида
dione.reconstructed.shaped <- reconstruct(dione.ssa.shaped, groups = list(I1 = c(1:6), I2 = c(7:12), I3 = c(13:19)))
Накопленные суммы компонент
plot(dione.reconstructed.shaped, cuts = 255, layout = c(5, 1), par.strip.text = list(cex = 0.75), type = "cumsum", at = "free")

На вид, исходная картинка лучше отделилась от шума в случае shaped SSA.
Exponential Smoothing
(ES vs SSA vs ARIMA)
es.fit <- es(uk.train, h = 72)
Forming the pool of models based on... ANN, ANA, ANM, AAM, Estimation progress: 45%55%64%73%82%91%100%... Done!

MSE
sum((tail(uk,72) - es.fit$forecast)^2)/72
[1] 91021.91
Модель
es.fit$formula
[1] "y[t] = (l[t-1] + b[t-1]) * s[t-12] * e[t]"
uk.trend.forecast <- predict(uk.train.ssa, method = "recurrent", len = 72, groups = 1)
uk.seasonality.forecast <- predict(uk.train.detrended.ssa, method = "recurrent", len = 72, groups = list(1:9))
plot(uk, xlim = c(2010, 2018))
lines(uk.trend.forecast + uk.seasonality.forecast, col = 'red')

sum((tail(uk,72) - (uk.trend.forecast + uk.seasonality.forecast))^2)/72
[1] 117129.6
auto.fit.uk <- auto.arima(uk.train, trace = TRUE, stepwise = FALSE, allowdrift = FALSE)
ARIMA(0,0,0)(0,1,0)[12] : 4609.677
ARIMA(0,0,0)(0,1,1)[12] : 4605.92
ARIMA(0,0,0)(0,1,2)[12] : 4570.102
ARIMA(0,0,0)(1,1,0)[12] : 4613.276
ARIMA(0,0,0)(1,1,1)[12] : Inf
ARIMA(0,0,0)(1,1,2)[12] : Inf
ARIMA(0,0,0)(2,1,0)[12] : 4575.118
ARIMA(0,0,0)(2,1,1)[12] : Inf
ARIMA(0,0,0)(2,1,2)[12] : Inf
ARIMA(0,0,1)(0,1,0)[12] : 4507.381
ARIMA(0,0,1)(0,1,1)[12] : 4508.452
ARIMA(0,0,1)(0,1,2)[12] : 4485.141
ARIMA(0,0,1)(1,1,0)[12] : 4519.165
ARIMA(0,0,1)(1,1,1)[12] : 4513.546
ARIMA(0,0,1)(1,1,2)[12] : Inf
ARIMA(0,0,1)(2,1,0)[12] : 4500.653
ARIMA(0,0,1)(2,1,1)[12] : Inf
ARIMA(0,0,1)(2,1,2)[12] : Inf
ARIMA(0,0,2)(0,1,0)[12] : 4437.354
ARIMA(0,0,2)(0,1,1)[12] : 4430.973
ARIMA(0,0,2)(0,1,2)[12] : 4420.724
ARIMA(0,0,2)(1,1,0)[12] : 4438.837
ARIMA(0,0,2)(1,1,1)[12] : 4436.083
ARIMA(0,0,2)(1,1,2)[12] : Inf
ARIMA(0,0,2)(2,1,0)[12] : 4442.367
ARIMA(0,0,2)(2,1,1)[12] : Inf
ARIMA(0,0,3)(0,1,0)[12] : 4420.287
ARIMA(0,0,3)(0,1,1)[12] : 4405.62
ARIMA(0,0,3)(0,1,2)[12] : 4397.304
ARIMA(0,0,3)(1,1,0)[12] : 4411.34
ARIMA(0,0,3)(1,1,1)[12] : 4411.748
ARIMA(0,0,3)(2,1,0)[12] : 4422.04
ARIMA(0,0,4)(0,1,0)[12] : 4401.569
ARIMA(0,0,4)(0,1,1)[12] : 4382.084
ARIMA(0,0,4)(1,1,0)[12] : 4386.684
ARIMA(0,0,5)(0,1,0)[12] : 4383.458
ARIMA(1,0,0)(0,1,0)[12] : 4407.718
ARIMA(1,0,0)(0,1,1)[12] : 4344.179
ARIMA(1,0,0)(0,1,2)[12] : 4340.676
ARIMA(1,0,0)(1,1,0)[12] : 4357.705
ARIMA(1,0,0)(1,1,1)[12] : 4352.702
ARIMA(1,0,0)(1,1,2)[12] : Inf
ARIMA(1,0,0)(2,1,0)[12] : 4366.902
ARIMA(1,0,0)(2,1,1)[12] : 4366.76
ARIMA(1,0,0)(2,1,2)[12] : 4368.57
ARIMA(1,0,1)(0,1,0)[12] : 4345.68
ARIMA(1,0,1)(0,1,1)[12] : 4280.329
ARIMA(1,0,1)(0,1,2)[12] : 4277.132
ARIMA(1,0,1)(1,1,0)[12] : 4290.246
ARIMA(1,0,1)(1,1,1)[12] : 4288.556
ARIMA(1,0,1)(1,1,2)[12] : Inf
ARIMA(1,0,1)(2,1,0)[12] : 4301.595
ARIMA(1,0,1)(2,1,1)[12] : 4302.477
ARIMA(1,0,2)(0,1,0)[12] : 4346.712
ARIMA(1,0,2)(0,1,1)[12] : 4281.757
ARIMA(1,0,2)(0,1,2)[12] : 4278.092
ARIMA(1,0,2)(1,1,0)[12] : 4291.57
ARIMA(1,0,2)(1,1,1)[12] : 4289.544
ARIMA(1,0,2)(2,1,0)[12] : 4302.708
ARIMA(1,0,3)(0,1,0)[12] : 4348.464
ARIMA(1,0,3)(0,1,1)[12] : 4277.812
ARIMA(1,0,3)(1,1,0)[12] : 4291.172
ARIMA(1,0,4)(0,1,0)[12] : 4346.347
ARIMA(2,0,0)(0,1,0)[12] : 4356.483
ARIMA(2,0,0)(0,1,1)[12] : 4294.508
ARIMA(2,0,0)(0,1,2)[12] : 4293.482
ARIMA(2,0,0)(1,1,0)[12] : 4309.562
ARIMA(2,0,0)(1,1,1)[12] : 4304.906
ARIMA(2,0,0)(1,1,2)[12] : Inf
ARIMA(2,0,0)(2,1,0)[12] : 4318.985
ARIMA(2,0,0)(2,1,1)[12] : 4318.889
ARIMA(2,0,1)(0,1,0)[12] : 4347.574
ARIMA(2,0,1)(0,1,1)[12] : 4282.203
ARIMA(2,0,1)(0,1,2)[12] : 4278.389
ARIMA(2,0,1)(1,1,0)[12] : 4292.378
ARIMA(2,0,1)(1,1,1)[12] : 4289.94
ARIMA(2,0,1)(2,1,0)[12] : 4303.347
ARIMA(2,0,2)(0,1,0)[12] : 4347.527
ARIMA(2,0,2)(0,1,1)[12] : 4284.437
ARIMA(2,0,2)(1,1,0)[12] : 4294.897
ARIMA(2,0,3)(0,1,0)[12] : 4349.054
ARIMA(3,0,0)(0,1,0)[12] : 4354.896
ARIMA(3,0,0)(0,1,1)[12] : 4293.657
ARIMA(3,0,0)(0,1,2)[12] : 4291.62
ARIMA(3,0,0)(1,1,0)[12] : 4306.162
ARIMA(3,0,0)(1,1,1)[12] : 4303.185
ARIMA(3,0,0)(2,1,0)[12] : 4316.591
ARIMA(3,0,1)(0,1,0)[12] : 4350.227
ARIMA(3,0,1)(0,1,1)[12] : 4280.178
ARIMA(3,0,1)(1,1,0)[12] : 4293.699
ARIMA(3,0,2)(0,1,0)[12] : 4350.246
ARIMA(4,0,0)(0,1,0)[12] : 4347.801
ARIMA(4,0,0)(0,1,1)[12] : 4286.691
ARIMA(4,0,0)(1,1,0)[12] : 4298.339
ARIMA(4,0,1)(0,1,0)[12] : 4349.489
ARIMA(5,0,0)(0,1,0)[12] : 4350.566
arima.prediction.uk <- predict(auto.fit.uk, 72)
plot(uk, xlim = c(2010, 2018))
lines(arima.prediction.uk$pred, col = 'red')
lines(arima.prediction.uk$pred + arima.prediction.uk$se, lty = 'dashed', col = 'blue')
lines(arima.prediction.uk$pred - arima.prediction.uk$se, lty = 'dashed', col = 'blue')

MSE
sum((tail(uk,72) - arima.prediction.uk$pred)^2)/72
[1] 477969.6
---
title: "SSA"
author: "Владимир Агеев"
output:
  html_notebook:
    toc: yes
    toc_depth: 3
    toc_float: yes
  html_document:
    toc: yes
    toc_depth: '3'
    toc_float: yes
---

```{r, echo=FALSE, include=FALSE}
library(Rssa)
library(plotrix)
library(jpeg)
library(smooth)
```


```{r}
table <- read.csv2("ssa.csv")
long <- table$COL1
short <- na.omit(table$COL7)
```

#Long series
```{r}
plot(long, type='l')
```

```{r}
spec.pgram(long, detrend = TRUE, fast = FALSE, log='no', taper=0)
```
Предполагем, что достаточно сгруппировать 8 компонент, т.к. возможно, ранг равен 8 (линейный тренд + 3 косинуса).



##Как выбирать L

Так как точной разделимости в реальных рядах не бывает, нас интересует асимтотическая разделимость.

В большинстве случаев скорость асимптотической разделимиости пропорциональна $1/\min(L, K)$, $K = N - L + 1$, поэтому выбираем $L$ близкое к $N/2$.

Если мы хотим отделять косинус с некоторым периодом, то для улучшения разделимости рекомендуется брать окно кратное периоду (следует из условий точной слабой разделимости).

##Слабая и сильная разделимость

* Слабая разделимость -- ортогональность траекторных подпространств
* Сильная азделимость -- слабая разделимость + в разных компонентах (SVD) разные собственные числа

Decomposition
```{r}
ssa.long <- ssa(long, kind='1d-ssa')
```
Собственные числа:

$\lambda_i = \|\mathbf{X}_i\|^2_{\mathcal{F}}$, $\lambda_i/ \|\mathbf{X}\|^2_{\mathcal{F}}$ -- вклад компоненты
```{r}
plot(ssa.long)
```


##Как идентифицировать тренд?

Хотим выделить все элементарные компоненты, которые имеют медленно меняющиеся собственные вектора.


Собственные ветора образуют базис траекторного подпространства, следовательно, они имеют вид соответствующих компонент ряда.

Собственные вектора:
```{r, fig.width=10, fig.height=10}
plot(ssa.long, type='vectors', idx = 1:15)
```
Первые два -- линейный тренд, дальше идут периодические компоненты.

##Как идентифицировать периодичность
 
 Посмотрим на скаттерплоты пар собственных векторов.
 
 * Знаем, что экспоненциально модулированный косинус соответствует двум собственным тройкам с примерно одинаковыми собственными числами ($Lw$ -- целые). Отсюда следует, что эти SVD компоненты скорее всего идут друг за другом
 * Эти две периодические компоненты (собственные вектора), отличаются на $\pi/2$ по фазе (при целых $Lw$).
 
 Таким образом, видимые Т-угольники соответствуют периодическим компонентам с периодом Т.

```{r , fig.width=12, fig.height=10}
plot(ssa.long, type='paired', idx= c(1:20))
```

Заметны компоненты с периодами 20, 10 и 6. Есть компонента, похожая на период 2.4, компонента похожая на период ~6. 

##Элементарные восстановленные компоненты

```{r}
plot(ssa.long, type='series', groups = list(1:2, 3:4, 5:6, 7:8, 9:10, 11:12))
```

##Оценка параметров (ESPRIT)

$x_n = \sum\limits_{j = 1}^r C_j \mu_j^n + \epsilon_n$ -- ряд, $\mu_j = \rho_je^{2\pi i \omega_j}$ -- корни х.п.

Алгоритм ESPRIT-LS:

* Применив SSA и получив SVD разложение, составляем r собственных векторов в матрицу $\mathbb{U}$
* $\widehat{\mathbb{D}} = \underline{\mathbb{U}}^-\bar{\mathbb{U}}$
* Собственные чилса \widehat{\mathbb{D}} -- оценки сигнальных корней

```{r}
parestimate(ssa.long, groups = list(1:12), method = "esprit-ls")
```


##Компоненты смешались. Как понять, это слабая или сильная разделимость?

Нет слабой разделимости -- отсутствие ортогональности траекторных подпространств.

* Посмотреть на матрицу взвешенных корреляций $\rho_{ij}(X_N^{(i)},X_N^{(j)}) = \frac{(X^{(i)}_N, X^{(j)}_N)_w}{\|X^{(i)}_N\|_w\|X^{(j)}_N\|_w}$.

По такой матрице поймем, хорошо ли мы разделили компоненты. Поймем, какие компоненты делить не стоит.

* Можно посмотреть на частотные коэффициенты корреляции (достаточное условие слабой отделимости)

 W-корреляционная матрица
 
```{r, fig.width=5, fig.height=5}
plot(wcor(ssa.long, groups = as.list(1:15)))
```
Матрица практически диагональная -- тренды и сезонные компоненты практически w-ортогональны

Нет сильной разделимости -- одинаковые собственные числа оказались в разных компонентах

* Можно посмотреть на вклады компонент, ступеньки будут соответствовать близким собственным числам


##Reconstruction

В предположении, что ранг ряда 8, получим
```{r, fig.width=8, fig.height=8}
long.reconstructed <- reconstruct(ssa.long, list(
  trend = c(1, 2),
  periodic = 3:8))
res.long <- residuals(long.reconstructed)
par(mfrow=c(4,1))
plot(long, type = 'l')
plot(long.reconstructed$trend, type='l', ylab = "trend")
plot(long.reconstructed$periodic, type='l', ylab = "periodic")
plot(res.long, type='l')
```


Автоковариационная функция
```{r, fig.height=5, fig.width=10}
acf(res.long, lag.max = 50)
```
Шум похож на белый.

##Корни ХП

Min-norm ЛРФ

* $P_i$ -- столбцы траекторной матрицы
* $\underline{P}_{i}$ -- вектор $P_i$ без последней координаты
* $\pi_i$ -- последняя координата $P_i$

Коэффициенты min-norm ЛРФ:

$\mathcal{R} = \frac{1}{1-\nu^2}\sum\limits_{i=1}^{d}{\pi_i \underline{P}_{i}}$, где $\nu^2 = \pi_1^2 + … + \pi_d^2$

$x_{i + d} = \sum\limits_{k = 1}^da_kx_{i + d - k}$, $a_d \neq 0$ -- минимальная ЛРФ 

$P(\mu) = \mu^d - \sum\limits_{k = 1}^da_k\mu^{d - k}$ -- характеристический полином ЛРФ

$\{\mu_j\}_{j = 1}^p$ -- корни х.п. кратности $k_j$, $\sum k_j = d$, тогда 

$x_n = \sum\limits_{m = 1}^p(\sum\limits_{j = 0}^{km - 1} C_{m_j} n^j)\mu_m^n$

min-norm ЛРФ и ее корни (предполагаем, что ранг ряда 8)
```{r}
lr <- lrr(ssa.long, groups = list(1:8))
plot(lr)
r <- roots(lr)
```

Хотим построить формулу для сигнала ряда с шумом.

Взяв большое окно и построив min-norm ЛРФ, найдем много корней х.п.

Как выбрать из них те r корней, что определяют структуру сигнала?

Найдем сигнальные корни, воспользовавшись утверждением, что у min-norm ЛРФ все лишние корни по модулю меньше единицы.
```{r}
mods <- Mod(r)
print(r[mods >= 1])
```

Перевернем ряд
```{r}
lr.back <- lrr(ssa.long, groups = list(1:8), reverse = TRUE)
r.back <- roots(lr.back)
mods.back <- Mod(r.back)
print(r.back[mods.back >= 1])
```
Модули главных корней
```{r}
main.roots <- c(r[Mod(r) >= 1], 1/r.back[Mod(r.back) >= 1])
print(Mod(main.roots))
```

Соответствующие периоды
```{r}
print(2*pi/Arg(main.roots))
```

```{r, fig.height= 5, fig.width=5}
plot(main.roots, xlim = c(-1,1), ylim = c(-1,1), asp = 1, xlab = "Re", ylab = "Im")
draw.circle(0,0,1,border = 'red')
```

Нашлось только 6 сигнальных корней, а должно быть 8.

Попробуем другой способ: 

Составим систему и найдем коэффициенты по МНК
```{r}
complex.LS <- function(series, series.roots){
   X <- mapply(FUN = function(root){root^(1:length(series))}, series.roots)
   Y <- cbind(series)
   list(coef = solve(Conj(t(X))%*%X) %*% Conj(t(X)) %*% Y,
        X = X)
}
coeffs.estimates <- complex.LS(long.reconstructed$trend + long.reconstructed$periodic, r)
```

Воспользуемся тем, что перед сигнальными корнями должны стоять максимальные коэффициенты
```{r}
idx.roots <-order(Mod(coeffs.estimates$coef), decreasing = TRUE)[1:8]
main.roots<-r[idx.roots]
res.coeffs <- coeffs.estimates$coef[idx.roots]
```


Модули главных корней
```{r}
print(Mod(main.roots))
```

Соответствующие периоды
```{r}
print(2*pi/Arg(main.roots))
```


```{r, fig.height= 5, fig.width=5}
plot(main.roots, xlim = c(-1,1), ylim = c(-1,1), asp = 1, xlab = "Re", ylab = "Im")
draw.circle(0,0,1,border = 'red')
```

```{r}
relation <- function(n){
  rbind(res.coeffs) %*% t(mapply(FUN = function(root){root^n}, main.roots))
}
```


```{r}
plot(long.reconstructed$trend + long.reconstructed$periodic, type = 'l', ylab = "series")
lines(x = 1:1000, y = Re(relation(1:1000)), col = 'red')
```

#Short series

```{r}
plot(short, type='l')
```
```{r}
spec.pgram(short, detrend = TRUE, fast = FALSE, log='no', taper=0, xaxt = 'n')
l <- seq(0, 0.5, 0.05)
axis(1, at = l, labels = l)
```
Ожидаем, что ранг ряда как минимум 4 (тренд + синус).

Decomposition
```{r}
short.ssa <- ssa(short, kind='1d-ssa')
```

Собственные числа
```{r}
plot(short.ssa)
```




Собственные вектора:
```{r, fig.width=8, fig.height=8}
plot(short.ssa, type='vectors', idx = 1:20)
```
 

```{r, fig.width= 8, fig.height= 8}
plot(short.ssa, type='paired', idx= c(1:20))
```

```{r}
parestimate(short.ssa, groups = list(3:4, 5:6, 7:8, 11:12, 13:14))
```


 
```{r, fig.width=5, fig.height=5}
plot(wcor(short.ssa, groups = as.list(1:20)))
```

```{r, fig.width=8, fig.height=8}
short.reconstructed <- reconstruct(short.ssa, list(
  trend = c(1, 2),
  periodic = c(3:8,11:14)))
res.short <- residuals(short.reconstructed)
par(mfrow=c(4,1))
plot(short, type = 'l')
plot(short.reconstructed$trend, type='l', ylab = "trend")
plot(short.reconstructed$periodic, type='l', ylab = "periodic")
plot(res.short, type='l')
```
```{r, fig.height=5, fig.width=10}
acf(res.short, lag.max = 50)
```

##Projection SSA

Двойное центрирование

$\mathcal{A}(\mathbf{X}) = [\mathcal{E}_1(\mathbf{X}) : \ldots : \mathcal{E}_1(\mathbf{X})]$, где $\mathcal{E}_1(\mathbf{X})$ -- вектор из средних по строкам

$\mathcal{B}(\mathbf{X}) = [\mathcal{E}_{12}(\mathbf{X}) : \ldots : \mathcal{E}_{12}(\mathbf{X})]$, где $\mathcal{E}_{12}(\mathbf{X})$ -- вектор, в котором j-ая компонента равна среднему компонент $X_j^{(c)} = X_i - \mathcal{E}_1(\mathbf{X})$.

При двойном центрировании применяем SVD к матрице $\mathbf{A} = \mathcal{A}(\mathbf{X}) + \mathcal{B}(\mathbf{X})$

Получим разложение $\mathbf{X} = \mathbf{A} + \sum\limits_{i = 1}^d\sqrt{\lambda_i}U_iV_i^\mathrm{T}$, где $(\lambda_i, U_i, V_i)$ соответствуют $S^* = (\mathbf{X} - \mathbf{A})(\mathbf{X} - \mathbf{A})^\mathrm{T}$.


Так как исходный тренд линейный, двойное центрирование поможет отделить линейную часть от колебаний (линейная часть попадет в $\mathbf{A}$).

```{r}
short.projection.ssa <- ssa(x = short, column.projector = 'centering', row.projector = 'centering')
```

```{r, fig.height=5, fig.width=10}
plot(short.projection.ssa)
plot(short.projection.ssa, type='vectors', idx = 1:20)
```

По виду собственных векторов видно, что тренд отделился лучше.

```{r}
plot(short.projection.ssa, type='paired', idx= c(1:20))
parestimate(short.projection.ssa, groups = list(3:4, 5:6, 7:8, 11:12, 13:14), method ="esprit-ls")
```


```{r, fig.width=8, fig.height=8}
short.reconstructed <- reconstruct(short.projection.ssa, list(
  trend = c(1, 2),
  periodic = c(3:8,11:14)))
res.projection <- residuals(short.reconstructed)
par(mfrow=c(4,1))
plot(short, type = 'l')
plot(short.reconstructed$trend, type='l', ylab = "trend")
plot(short.reconstructed$periodic, type='l', ylab = "periodic")
plot(res.projection, type='l')
```

```{r, fig.height=5, fig.width=10}
acf(res.projection, lag.max = 50)
```
Стало немного лучше, но все-таки что-то осталось.

#Toeplitz SSA vs Basic SSA

Для коротких рядов, которые предполагаются стационарными рекомендуется заменять матрицу $\mathbf{S} = \mathbf{X}\mathbf{X}^\mathrm{T}$ на автоковариационную матрицу $\widetilde{\mathbf{C}}$ на этапе разложения


$\widetilde{c}_{ij} = \frac{1}{N - |i - j|} \sum\limits_{m = 1}^{N - |i - j|} x_m x_{m + |i - j|}$, $1 \leq i, j \leq L$.

Замечание:

Полученное раложение $\mathbb{X} = \sum\limits_{i = 1}^L\sigma_iP_iQ_i^\mathrm{T}$, где $P_i$ -- с.в. $\widetilde{\mathbf{C}}$, образуют ортонормированный базис в $\mathbb{R}$, $Q_i = \frac{\mathbb{X}^\mathrm{T}P_i}{\|\mathbb{X}^\mathrm{T}P_i\|}$. Это разложение не является сингулярным разложением, $\sigma_i = \|\mathbb{X}^\mathrm{T}P_i\|$ вообще говоря не собственные числа $\widetilde{\mathbf{C}}$.


Пример: ряд $x_n = e^{\alpha n} cos(2\pi n/7) + \epsilon_n$
```{r}
set.seed(100)
eps <- rnorm(100)
alpha <- seq(0.0001, 0.01, 0.0001)
x <- mapply(FUN = function(a) {exp(a * (1:100)) * cos(2*pi*(1:100)/7) + eps}, alpha)

basic <- apply(x, 2, FUN = function(series){
  s <- ssa(series)
  rec <- reconstruct(s, groups = list(trend = c(1, 2)))
  per <- series - eps
  mse <- sum((rec$trend - per)^2)/length(per)
})

teoplitz <- apply(x, 2, FUN = function(series){
  s <- ssa(series, kind = "toeplitz-ssa")
  rec <- reconstruct(s, groups = list(trend = c(1, 2)))
  per <- series - eps
  mse <- sum((rec$trend - per)^2)/length(per)
})
```
```{r}
plot(y = teoplitz, x = alpha, type = "l", ylab = "MSE", xlab = 'alpha', main = "Teoplitz vs Basic SSA")
lines(y = basic,  x = alpha,  col = 'red')
legend("topleft", c("Teoplitz", "Basic"), lty=c(1,1), lwd=c(2.5,2.5),col=c("black","red"))
```

#Последовательный анализ реального ряда
```{r}
uk <- read.csv("UK.csv", sep = ',', stringsAsFactors = FALSE)
uk <- ts(uk$EXPEND, start = c(1980, 1), frequency = 12)

df.uk <- data.frame(seq.Date(from = as.Date("1980-01-01"), to = as.Date("2016-12-01"), by = "month"), uk)
colnames(df.uk) <- c("DATE", "EXP")
head(uk, 24)
```
```{r}
plot(uk)
```


Периодограмма ряда
```{r}
spec.pgram(uk, detrend = TRUE, fast = FALSE, log='no', xaxt = 'n')
axis(1, at = c(0,1,2,3,4,5,6), labels = c('0', '1/12', '2/12', '3/12', '4/12', '5/12', '6/12'))
```

##Сглаживание

* Тренд сложной формы, возможно, не описывается рядом конечной размерности
* Если выберем большое окно, компоненты тренда смешаются с периодическими
* Возьмем маленькое окно: хорошо выделим тренд, но смешаются остальные компоненты
* Решение: сначала выделим тренд с маленьким окном, потом применим SSA с большим окном к остатку.

Выбираем небольшую длину окна кратную периоду сезонной компоненты, L = 24.
```{r}
uk.ssa <- ssa(uk, L = 24)
```

Вклады
```{r}
plot(uk.ssa)
```

Видно, что собственные числа периодических компонент близкие. Скорее всего эти компоненты смешаются (проблема с сильной разделимостью).


Собственные вектора
```{r}
plot(uk.ssa, type="vectors", idx=1:12)
plot(uk.ssa, type="paired", idx=1:11)
```
##Восстановленные по элементарным компонентам
```{r}
plot(uk.ssa, type ='series', groups = as.list(1:12))
```
Первая элементарная компонента соответствует тренду, дальше идут периодики.

##Выделение тренда

```{r}
uk.trend <- reconstruct(uk.ssa, groups = list(1))
plot(uk)
lines(uk.trend$F1, col = 'red')
uk.detrended <- residuals(uk.trend)
```
Периодограмма остатка
```{r}
spec.pgram(uk.detrended, detrend = FALSE, fast = FALSE, log='no', xaxt = 'n')
axis(1, at = c(0,1,2,3,4,5,6), labels = c('0', '1/12', '2/12', '3/12', '4/12', '5/12', '6/12'))
```
Ожидаем, что дальше будет достаточно выделить 9 компонент (синус с периодом 2 имеет ранг 1).

##Сезонность

Возьмем максимальное $L \leq N/2$ кратное 12, т.е. 216 (длина ряда 444).

```{r}
uk.detrended.ssa <- ssa(uk.detrended, L=216)
plot(uk.detrended.ssa)
```
Видно ступеньки, которые, возможно, соответствуют синусоидам.


```{r, fig.width=8, fig.height=8}
plot(uk.detrended.ssa, type = "paired", idx = 1:30, plot.contrib = FALSE)
```
Заметны компоненты, соответствующие периодам 12, 6, 4 и 2.4.


Компонента, соответствующая периоду 2.
```{r}
plot(uk.detrended.ssa, type = "vectors", idx = 9, plot.contrib = FALSE)
```

Проверим
```{r}
parestimate(uk.detrended.ssa, groups = list(1:9), method = "esprit-ls")
```


W-корреляционная матрица

```{r, fig.width=5, fig.height=5}
plot(wcor(uk.detrended.ssa, groups = as.list(1:20)))
```

```{r}
uk.seasonality <- reconstruct(uk.detrended.ssa, groups = list(1:9))
res1 <- residuals(uk.seasonality)
```
```{r, fig.height=10, fig.width=8}
par(mfrow=c(4,1))
plot(uk, type = 'l', ylab='Original')
plot(uk.trend$F1, type='l', ylab='Trend')
plot(uk.seasonality$F1, type='l', ylab = 'Seasonal Component')
plot(res1, type='l', ylab='Residuals')
```
В остатке остался тренд.


```{r}
acf(res1)
spec.pgram(res1, detrend = FALSE, fast = FALSE, log='no', xaxt = 'n')
axis(1, at = c(0,1,2,3,4,5,6), labels = c('0', '1/12', '2/12', '3/12', '4/12', '5/12', '6/12'))
```

##Оценка дисперсии шума
```{r}
sigma.n.sqr <- ssa(res1^2, L = 30)
sigma.n <- sqrt(reconstruct(sigma.n.sqr, groups = list(1))$F1)
plot(res1, type='l')
lines(sigma.n, type = 'l', col='blue')
lines(-sigma.n, type='l', col='blue')
```

#Forecasting

Рассмотрим тот же самый ряд, но без последних шести лет.
```{r}
uk.train <- head(uk, -72)
plot(uk.train)
uk.train.ssa <- ssa(uk.train, L = 24)
uk.train.trend <- reconstruct(uk.train.ssa, groups = 1)
uk.train.detrended <- residuals(uk.train.trend)
uk.train.detrended.ssa <- ssa(uk.train.detrended, L = 180)
uk.train.seasonality <- reconstruct(uk.train.detrended.ssa, groups = list(1:9))
```


##R-forecasting

Продолжаем ряд с помощью min-norm LRR.
```{r}
uk.trend.forecast <- predict(uk.train.ssa, method = "recurrent", len = 72, groups = 1)
uk.seasonality.forecast <- predict(uk.train.detrended.ssa, method = "recurrent", len = 72, groups = list(1:9))
plot(uk, xlim = c(2000, 2020))
lines(uk.trend.forecast + uk.seasonality.forecast, col = 'red')
```
MSE
```{r}
sum((tail(uk, 72) - (uk.trend.forecast + uk.seasonality.forecast))^2)/72
```

##V-forecasting

```{r}
uk.trend.forecast <- predict(uk.train.ssa, method = "vector", len = 72, groups = 1)
uk.seasonality.forecast <- predict(uk.train.detrended.ssa, method = "vector", len = 72, groups = list(1:9))
plot(uk, xlim = c(2000, 2020))
lines(uk.trend.forecast + uk.seasonality.forecast, col = 'red')
```

MSE
```{r}
sum((tail(uk, 72) - (uk.trend.forecast + uk.seasonality.forecast))^2)/72
```

##Доверительные интервалы

Bootstrap:

* Выделяем сигнал с помощью SSA
* Оцениваем дисперсию остатка и много раз моделируем гауссовский шум
* Выделяем сигнал из оцененного сигнала + моделированного шума
* Получим много оценок сигнала
* Строим продолжения
* Отбрасываем $(1 - \gamma)/2$ с концов

```{r}
uk.trend.forecast <- predict(uk.train.ssa, method = "bootstrap-recurrent", len = 72, groups = 1)
uk.seasonality.forecast <- predict(uk.train.detrended.ssa, method = "bootstrap-recurrent", len = 72, groups = list(1:9))
plot(uk, xlim = c(2010, 2018))
lines(uk.trend.forecast[,1] + uk.seasonality.forecast[,1], col = 'red')
lines(uk.trend.forecast[,2] + uk.seasonality.forecast[,2], col = 'blue',lty="dashed")
lines(uk.trend.forecast[,3] + uk.seasonality.forecast[,3], col = 'blue',lty="dashed")
```

#Заполнение пропусков

Рассмотрим ряд
```{r}
uk.head <- head(uk, - 120)
plot(uk.head)
```


Добавим пропуски в ряд
```{r}
uk.na <- uk.head
missed <- uk.head[121:180]
uk.na[121:180] = NA
plot(uk.na, type = 'l')
```

##Алгоритм

Subspase-based method:

* На этапе декомпозиции, исключаем вектора вложения, содержащие пропущенные элементы
* Из оставшихся векторов составляем траекторную матрицу
* SVD
* Проекция на $\mathcal{L}_r$ 
* Проекция неполных векторов на $\mathcal{L}_r$. 
* "предсказание во внутрь" с помощью лрф,
построенной по имеющимся данным. Предсказываем слева и справа с линейно убывающими весами,
а потом усредняем
* Диагональное усреднение

Итеративный метод: 

* Заполняем пропуски, например, средним
* r и L фиксированы (например выбрали с помощью cv)
* Применим SSA, вставим интересующую нас часть в исходный ряд, снова применим SSA и так далее

Минус: для прогноза не годится.

```{r}
uk.na.ssa <- ssa(uk.na, L = 72)
```

##Предсказание во внутрь
```{r}
g <- gapfill(uk.na.ssa, groups = list(1:8))
plot(unclass(uk.head), type = 'l')
lines(y = unclass(g[121:180]), x = 121:180, col = 'red', lty = 2)
```
MSE
```{r}
sum((g[121:180] - missed)^2)/60
```

##Итеративный метод


```{r}
g.it <- igapfill(uk.na.ssa, groups = list(1:8))
plot(unclass(uk.head), type = 'l')
lines(y = unclass(g.it[121:180]), x = 121:180, col = 'red', lty = 2)
```

MSE
```{r}
sum((g.it[121:180] - missed)^2)/60
```
Итеративный метод оказался точнее.


#2D-SSA для разложения изображения

Рассмотрим фотографию спутника Сатурна, Дионы ([Источник](https://www.nasa.gov/image-feature/jpl/pia20521/rays-of-creusa)).

Прочитали картинку
```{r, fig.width=5, fig.height=5}
dione <- readJPEG("Dione.jpg")
image(dione, col = grey(seq(0, 1, length = 256)))
```

Добавим шум
```{r, fig.width=5, fig.height=5}
set.seed(100)
noise.matrix <- apply(dione, 2, function(x){rnorm(length(x), sd = 0.3)})
dione.noised <- dione + noise.matrix
image(dione.noised, col = grey(seq(0, 1, length = 256)))
```


2d-ssa
```{r}
dione.ssa <- ssa(dione.noised, kind = "2d-ssa", L = c(25,25))
```

Собственные вектора
```{r}
plot(dione.ssa, type = "vectors", idx = 1:30, cuts = 255, layout = c(10, 2), plot.contrib = FALSE)
```

w-корреляционная матрица
```{r}
plot(wcor(dione.ssa, groups = 1:30),scales = list(at = seq(10, 30, 5)))
```


Сгруппируем компоненты с частотами похожего вида
```{r}
dione.reconstructed <- reconstruct(dione.ssa, groups = list(I1 = c(1:13), I2 = c(14:15), I3 = c(16:17)))
```


Накопленные суммы компонент
```{r}
plot(dione.reconstructed, cuts = 255, layout = c(5, 1), par.strip.text = list(cex = 0.75), type = "cumsum", at = "free")
```

##Shaped SSA

Уберем черный фон
```{r}
dione.without.black <- apply(dione, 2, FUN = function(col){
  sapply(col, FUN = function(element){
    if(element <= 0.1){
      return(NA)
    } else{
      return(element)
    }
  })
})
```

```{r, fig.width=5, fig.height=5}
image(dione.without.black, col = grey(seq(0, 1, length = 256)))
```
Добавим шум
```{r, fig.width=5, fig.height=5}
dione.without.black.noised <- dione.without.black + noise.matrix
image(dione.without.black.noised, col = grey(seq(0, 1, length = 256)))
```

Попробуем изменить форму окна на круг.
```{r}
dione.ssa.shaped <- ssa(dione.without.black.noised, kind = "2d-ssa", wmask = circle(20))
```

```{r}
plot(dione.ssa.shaped, type = "vectors", idx = 1:30, cuts = 255, layout = c(10, 2), plot.contrib = FALSE)
```

w-корреляционная матрица
```{r}
plot(wcor(dione.ssa.shaped, groups = 1:30),scales = list(at = seq(10, 30, 5)))
```
По матрице можно сделать вывод о том, что приблизительно 10 первых компонент относятся к сигналу, а остальное это шум.

Сгруппируем компоненты с частотами похожего вида
```{r}
dione.reconstructed.shaped <- reconstruct(dione.ssa.shaped, groups = list(I1 = c(1:6), I2 = c(7:12), I3 = c(13:19)))
```


Накопленные суммы компонент
```{r}
plot(dione.reconstructed.shaped, cuts = 255, layout = c(5, 1), par.strip.text = list(cex = 0.75), type = "cumsum", at = "free")
```
На вид, исходная картинка лучше отделилась от шума в случае shaped SSA.


#Exponential Smoothing

(ES vs SSA vs ARIMA)

```{r}
es.fit <- es(uk.train, h = 72)
```

MSE
```{r}
sum((tail(uk,72) - es.fit$forecast)^2)/72
```

Модель
```{r}
es.fit$formula
```


```{r}
uk.trend.forecast <- predict(uk.train.ssa, method = "recurrent", len = 72, groups = 1)
uk.seasonality.forecast <- predict(uk.train.detrended.ssa, method = "recurrent", len = 72, groups = list(1:9))
plot(uk, xlim = c(2010, 2018))
lines(uk.trend.forecast + uk.seasonality.forecast, col = 'red')
```
```{r}
sum((tail(uk,72) - (uk.trend.forecast + uk.seasonality.forecast))^2)/72
```


```{r}
auto.fit.uk <- auto.arima(uk.train, trace = TRUE, stepwise = FALSE, allowdrift = FALSE)
arima.prediction.uk <- predict(auto.fit.uk, 72)
plot(uk, xlim = c(2010, 2018))
lines(arima.prediction.uk$pred, col = 'red')
lines(arima.prediction.uk$pred + arima.prediction.uk$se, lty = 'dashed', col = 'blue')
lines(arima.prediction.uk$pred - arima.prediction.uk$se, lty = 'dashed', col = 'blue')
```

MSE
```{r}
sum((tail(uk,72) - arima.prediction.uk$pred)^2)/72
```

